Teknologi ‘Mind Captioning' Menerjemahkan Apa yang Dilihat Menjadi Kata-Kata
Tekno & SainsNewsHot
Redaktur: Heru Sulistyono

Gambar: Shutterstock

Jakarta, tvrijakartanews - Penelitian ini melibatkan enam subjek Jepang yang berpartisipasi dalam sesi pemindaian fMRI sambil menonton klip video pendek dan kemudian mengingatnya dari ingatan. Para peneliti mengumpulkan data aktivitas otak selama percobaan presentasi video dengan 2.180 video unik dalam sesi pelatihan dan 72 video yang diulang lima kali dalam sesi tes.

Melansir Study Finds, sebuah eksperimen citra meminta subjek mengingat 72 video dari ingatan setelah melihat isyarat verbal. Setiap video memiliki 20 keterangan teks yang dianotasi oleh pekerja independen yang menggambarkan konten visual. Para peneliti menggunakan model regresi linier untuk memecahkan kode aktivitas otak menjadi fitur semantik yang dihitung oleh model bahasa besar DeBERTa dari keterangan video.

Fitur semantik ini berfungsi sebagai representasi perantara yang menjembatani aktivitas otak dan teks. Untuk menghasilkan deskripsi dari fitur yang didekodekan, mereka mengembangkan metode pengoptimalan berulang menggunakan model besar RoBERTa yang telah dilatih sebelumnya untuk pemodelan bahasa bertopeng. Proses ini melibatkan kata-kata yang berulang kali menutupi, menyarankan alternatif berdasarkan konteks, dan memilih kandidat yang fitur semantiknya paling cocok dengan fitur yang diterjemahkan otak melalui 100 iterasi. Sistem dimulai dari keadaan awal yang tidak informatif dan secara progresif berevolusi deskripsi untuk menyelaraskan dengan representasi otak target.

Deskripsi yang dihasilkan secara akurat menangkap konten yang dilihat, termasuk perubahan dinamis dan interaksi antara beberapa elemen, bahkan ketika objek tertentu tidak diidentifikasi dengan benar. Sepanjang pengoptimalan, deskripsi berevolusi dari teks yang terfragmentasi menjadi struktur yang koheren, dengan fitur semantik yang menunjukkan korelasi yang semakin kuat dengan fitur target yang diterjemahkan otak dan keterangan referensi. Diskriminasi secara substansial di atas peluang di semua metrik evaluasi, dengan akurasi sekitar 50% dalam mengidentifikasi video yang benar dari 100 kandidat.

Pengocok urutan kata secara signifikan mengurangi akurasi identifikasi dan diskriminabilitas, menunjukkan deskripsi yang menangkap informasi relasional terstruktur di luar daftar kata sederhana. Efek ini lebih jelas ketika menggunakan fitur dari lapisan model bahasa yang lebih dalam, menyoroti pentingnya representasi semantik kontekstual. Metode ini mengungguli pendekatan berdasarkan basis data teks atau model teks gambar nonlinier.

Analisis pengkodean Voxelwise mengungkapkan fitur semantik secara efektif memprediksi aktivitas otak dalam jaringan bahasa dan wilayah yang terlibat dalam mengenali objek, tindakan, dan interaksi. Khususnya, deskripsi akurat yang menangkap semantik terstruktur dapat dihasilkan tanpa bergantung pada jaringan bahasa, mencapai akurasi hampir 50% ketika mengecualikan wilayah-wilayah ini. Dekoder terlatih persepsi berhasil digeneralisasikan ke aktivitas otak yang diinduksi citra, menghasilkan deskripsi konten yang diingat dengan akurasi di atas kesempatan. Fitur semantik menunjukkan generalisasi yang unggul dibandingkan dengan fitur visual atau visual-semantik saat memecahkan kode citra menggunakan dekoder terlatih persepsi. Metode ini menghasilkan deskripsi yang dapat dipahami dari aktivitas fMRI percobaan tunggal selama penarikan dalam beberapa kasus.

Penelitian ini menggunakan video alami dari web, yang meningkatkan validitas ekologis tetapi membatasi kemampuan untuk mengidentifikasi secara tepat struktur relasional mana yang ditangkap oleh metode tersebut dan menilai generalisasi ke adegan atipikal. Tanpa kontrol eksperimental melalui manipulasi sistematis dari struktur relasional yang berbeda, masih belum jelas apakah keberhasilan mencerminkan generalisasi sejati di luar pola umum atau ketergantungan pada bias implisit terhadap struktur adegan khas yang berpotensi diperkenalkan melalui model sebelumnya, distribusi data pelatihan, atau pemilihan stimulus. Teks referensi berasal dari anotasi independen daripada subjek fMRI itu sendiri, sehingga mereka mungkin tidak sepenuhnya selaras dengan persepsi unik masing-masing subjek, meskipun menggunakan 20 teks per video kemungkinan mengurangi beberapa variabilitas.

Anotasi diinstruksikan untuk fokus pada konten visual daripada aspek subjektif seperti reaksi emosional, sehingga deskripsi yang dihasilkan sebagian besar konkret dan jarang mencerminkan dimensi abstrak. Petunjuk verbal yang digunakan untuk mengingat video selama percobaan pencitraan mungkin telah memengaruhi aktivitas otak selama periode pencitraan karena respons hemodinamik yang lambat, sehingga sulit untuk sepenuhnya membedakan aktivitas yang terkait dengan membaca teks dari citra mental.

Metode ini saat ini bekerja paling baik dengan pengukuran berulang dan menunjukkan kinerja yang bervariasi di seluruh individu. Satu subjek (S1) terpapar pada rangsangan yang sama beberapa kali selama percobaan pendahuluan, berpotensi mempengaruhi respons otak mereka.